VĚTNÁ SEGMENTACE
V korpusové lingvistice automatický proces, při němž se text dělí na věty. V.s. provádí počítačový program zvaný segmenter. Je to po ↗tokenizaci obvykle druhá fáze automatického zpracování textu. V.s. je obecně netriviální, neboť interpunkční znaménka typicky ukončující větu bývají homonymní, např. tečka, jež ukončuje jak větu, tak i zkratku. Při v.s. se obvykle počátek, resp. konec věty, explicitně vyznačí zvláštní značkou značkovacího jaz. (např. ↗XML), např. <s>, resp. </s>. Např. text
Caesar byl zavražděn r. 43 př. Kr. Řím byl tehdy na pokraji převratu. |
obsahující dvě věty (nikoli jednu!) by se při netriviální segmentaci (tečka za Kr je totiž víceznačná a následující slovo začíná velkým písmenem) správně segmentoval takto:
<s>Caesar byl zavražděn r. 43 př. Kr.</s> |
<s>Řím byl tehdy na pokraji převratu.</s> |
V.s. je tedy vzhledem k víceznačnosti interpunkčních znamének, jak předvádí předchozí příklad, netriviální problém (mimo tečku je např. víceznačná i čárka apod.). Při v.s. realizované pravidly se proto používají seznamy zkratek, které jsou zakončené tečkou a zároveň mohou/nemohou stát na konci vět. Problémy představuje i přímá věta vložená do jiné věty, výčty užívající interpunkce, dále věty rozdělené odstavci ad. V.s. se provádí obvykle dvěma způsoby: pomocí pravidel platných v daném jaz., n. na základě strojového učení z tzv. trénovacích textů.
- Jelínek, T. & V. Petkevič. Systém jazykového značkování současné psané češtiny. In Petkevič, V. & A. Rosen (eds.), Korpusová lingvistika Praha 2011 3. Gramatika a značkování korpusů, 2011, 154–170.
URL: https://www.czechency.org/slovnik/VĚTNÁ SEGMENTACE (poslední přístup: 21. 11. 2024)
Další pojmy:
korpusová lingvistikaCzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka